可以通过子字令牌化来实现多语言搜索。传统TF-IDF方法的准确性取决于手动策划的令牌化,停止单词和茎规则,而子字tf-idf(STF-IDF)可以提供更高的准确性,而无需这样的启发式方法。此外,可以固有地将多语言支持作为子词令牌化模型培训的一部分合并。Xquad评估证明了STF-IDF的优势:英语的优质信息检索准确性为85.4%,其他10种语言的80%以上,没有任何基于启发式的预处理。重现这些结果的软件是作为Text2Text的一部分开源的:https://github.com/artitw/text2text
translated by 谷歌翻译